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摘要 : [目的 /意义 ] 数据 质量 保证 工作 是 网 络 存档 工作 中 的 一 项 重要 工作 ， 其 贯穿 整个 网 络 存档 工作 
的 始终 ， 决 定 网 络 资源 存档 工作 的 成 败 。 [方法 / 过程] 通过 对 国内 外 各 保存 机 构 的 质量 保证 策略 及 方法 
进行 分 析 、 研 究 和 对 比 ， 提 出 数据 质量 保证 的 策略 理论 框架 。[ 结果 / 结论 ] 该 框架 以 数据 为 中 心 ， 制 定 
一 系列 的 业务 标准 及 工作 规范 ， 利 用 现 有 软件 工具 开展 全 流程 的 数据 质量 检查 工作 ， 同 时 以 团队 建设 、 运 
行 环境 维护 及 授权 获取 网 站 备份 作为 补充 手段 ， 确 保 获取 高 质量 的 存档 数据 . 
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LL EIE: 

在 网 络 资源 存档 工作 实践 中 ， 会 遇 到 很 多 
类 型 的 数据 质量 问题 ， 包 括 网 站 内 容 文件 的 缺 
失 、 多 媒体 内 容 无 法 展现 、 版 式 错乱 等 。 如 果 
对 这 些 数据 质量 问题 不 采取 严格 的 质量 控制 手 
段 ， 则 可 能 丢失 很 多 重要 的 信息 ， 导 致 数据 质 
量 偏 低 ， 其 至 保存 任务 失败 。 根 据 互联 网 档案 
馆 (Internet Archive, IA) 的 技术 团队 2013 年 
发 布 的 网络 资 源 生命 周期 模型 ” 中， 质量 检 
查 与 分 析 工 作 处 于 网 络 资源 存档 生命 周期 的 内 
环 ， 是 上 一 轮 采 集 存 储 与 组 织 工作 和 下 一 轮 采 
集 评估 与 选择 工作 之 间 的 重要 步骤 ， 决 定 了 下 
一 步 工 作 的 方向 ， 可 以 说 网 络 资源 存档 的 数据 


质量 保证 工作 是 影响 网 络 资源 存档 成 败 的 主要 
因素 之 一 。 

一 般 来 说 ， 外 观 完 整 性 、 交 互 完 备 性 和 数 
据 一 致 性 被 视 为 存档 数据 质量 的 三 大 评价 指标 。 
高 质量 的 网 络 存档 数据 指 在 尽量 短 的 时 间 内 ，, 完 
整 采集 目标 网 站 中 的 知识 内 容 ， 并 且 完 整 保存 
网 站 的 视觉 内 容 和 浏览 体验 。 不 同 的 采集 机 构 
会 根据 各 自 的 采集 需求 、 成 本 预算 等 制定 不 同 
的 量化 指标 来 定义 本 机 构 适 用 的 网 络 存档 数据 
质量 评价 标准 。 网 络 存 档 的 数据 质量 保证 工作 
即 指 网 络 存 档 机 构 为 保证 所 采集 的 网 络 资源 达 
到 预 设 的 质量 标准 而 采取 的 相关 措施 和 方法 , 包 
括 机 器 自动 执行 、 人 工 干 预 等 方式 ， 范 围 覆盖 
采集 前 、 采 集 过 程 以 及 采集 后 整个 工作 流程 口 。 
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由 于 网 络 资源 存档 技术 的 限制 和 网 络 资源 
的 复杂 性 ， 对 网 络 资源 进行 完美 的 存档 是 不 实 
际 的， 国际 上 多 个 网 络 存档 机 构 ， 如 国际 互联 
网 保存 组 织 (International Internet Preservation 
Consortium, IPC) 、 美 国 国会 图 书馆 、 法 国 
国家 图 书馆 等 ， 都 开展 了 相应 的 数据 质量 保证 
相关 工作 ， 他 们 从 各 自 的 网 络 资源 存档 需求 出 
发 ， 对 网 络 资源 存档 中 的 数据 质量 保证 问题 进 
行 研究 ， 制 定 符合 自身 要 求 的 质量 保证 策略 与 
方法 ， 尝 试 从 不 同 程度 上 解决 数据 质量 问题 ， 尽 
量 提高 采集 数据 质量 。 

本 研究 的 主要 目的 是 通过 调研 国内 外 网 络 
资源 存档 机 构 的 质量 保证 工作 实践 ， 归 纳 总 结 
并 深入 分 析 质 量 保证 的 方法 和 手段 ， 提 出 具有 
普 适 性 的 数据 质量 保证 策略 理论 框架 。 

@ 网 络 存档 质量 保证 相关 实践 

2014 年 美国 北 德 克 萨 斯 大 学 的 B. R. Ayala 
SA IPC 的 资助 下 开展 了 网 络 资源 存档 质量 
保证 实践 的 调研 站， 该 调研 主要 面向 IPC 成 员 
机 构 ， 也 包括 一 些 非 IPC 成 员 的 机 构 ， 调 研 方 
式 包括 文档 分 析 、 邮 件 交 流 、 会 议和 当面 交流 
等 ， 调 研 内 容 履 盖 了 网 络 资源 存档 数据 质量 问 
题 本 身 、 机 构 对 质量 检查 的 态度 、 质 量 保证 的 
手段 和 方式 以 及 各 种 质量 问题 的 解决 方案 等 。 
调查 结果 显示 : 绝 大 多 数 机构 在 进行 网 络 资源 
采集 时 都 会 同时 开展 质量 检查 相关 工作 ， 只 有 
不 到 5% 的 机 构 从 来 不 进行 质量 检查 ， 对 采集 过 
程 开展 全 流程 质量 控制 的 机 构 达 到 11.1%。 由 此 
可 见 ， 网 络 资源 存档 机 构 对 质量 保证 工作 都 非 
常 重 视 ， 数 据 质量 被 认为 是 网 络 资源 存档 工作 
中 最 重要 的 问题 之 一 。 下 文 将 介绍 国内 外 网 络 
资源 存档 机 构 的 质量 保证 实践 工作 。 

2.1 国外 网 络 资源 存档 机 构 
2.1.1 美国 德 雷 萨 尔 大 学 

德 雷 萨 尔 大 学 (Drexel University) 开展 
了 面向 高 等 教育 资源 的 网 络 存 档 工 作 外 ， 采 用 
Archive-It 作为 保存 工具 ， 主 要 通过 工作 人 员 手 
动 检查 来 完成 质量 控制 ， 从 而 保证 重要 内 容 的 
可 用 性 。 工 作 人 员 使 用 Excel 表单 来 记录 种 子 采 
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集中 发 生 的 错误 ， 每 次 采集 完成 后 ， 工 作 人 员 
需 记 录 种 子 的 采集 情况 ， 然 后 检查 Archive-It El 
动 生成 的 质量 保证 报告 中 的 基础 性 问题 ， 如 采 
集 数量 是 否 过 大 、 数 据 是 否 已 人 存储 队列 、 是 
否 遵守 蜂 蛛 协议 (robots.txt) 等 。 之 后 工作 人 员 
开始 查找 种 子 错误 (种子 是 否 将 采集 误导 到 其 
他 网 站 ) 以 及 内 说 文档 问题 (丢失 内 容 或 显示 
AM) 。 这 些 基础 的 质量 控制 完成 之 后 ， 工 作 
人 员 做 出 必要 的 修改 及 改变 ， 执 行 修补 采集 或 
者 重新 采集 确保 存档 内 容 能 够 与 原 网 站 内 容 保 
持 一 致 。 
2.1.2 法 国 国家 图 书馆 

法 国 国家 图 书馆 于 2006 年 发 布 的 工作 报告 
中 ,描述 了 他 们 在 网 络 资源 法 定 缴 存 工作 中 出 
现 的 各 种 质量 问题 ， 并 分 享 了 所 采取 的 质量 控 
制 手段 和 方法 。 他 们 认为 机 器 自动 采集 的 海量 
数据 的 质量 检查 方法 应 该 根据 采集 数据 的 体 量 
以 及 结构 来 确定 : 

(1) 对 于 广 域 采 集 ， 数 据 零乱 无 序 ， 质 量 
检查 的 主要 任务 是 对 数据 进行 检查 、 描 绘 并 验 
证 有 效 性 ， 从 而 确保 能 准确 地 进行 储藏 和 保存 。 
采取 的 主要 方法 是 收集 采集 日 志 报 告 并 进行 分 
析 、 检 查 通 用 技术 环境 和 软件 运行 状态 、 对 采 
集 数据 进行 抽样 以 验证 数据 的 可 抽取 性 和 可 访 
问 性 。 

(2) 对 限定 种 子 列表 数量 的 重点 采集 或 对 
特定 网 站 的 定期 采集 ， 资 源 相 对 整齐 有 序 ， 应 
当 对 采集 资源 开展 系统 的 验证 与 检查 。 他 们 开 
发 了 一 个 工具 组 件 来 开展 更 精炼 的 自动 化 检验 
工作 ， 第 一 个 模块 可 以 去 除 URL 中 不 可 见 字 
符 ， 并 对 URL 进行 查 重 ; 第 二 个 模块 可 以 检验 
URL 有 效 性 ， 检 验 URL 是 否 已 存档 ， 检 测 网 站 
是 否 有 蜂 蛛 协议 ， 分 析 网 站 地 理 定 位 等 ; 第 三 
个 模块 可 以 自动 对 比 种 子 列表 与 现 有 采集 日 志 
报告 ， 该 功能 对 采集 过 程 中 的 质量 检查 尤为 有 
用 。 

2.1.3. 美国 密 欣 根 大 学 本 特 利 历史 图 书馆 
本 特 利 历 史 图 书馆 (Bentley Historical 
Library, BHL) 开展 了 ”大 学 档案 与 记录 项 目 ” 
(UARP) 和 “ 密 欣 根 历史 专题 ” (MHC) 两 
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个 网 络 存 档 项 目 ， 于 2011 年 发 布 了 这 两 个 项 目 
的 质量 控制 指南 与 规程 ， 后 来 又 进行 了 多 次 修 
改 完善 。 该 指南 分 析 了 网 络 存档 过 程 中 可 能 遇 
到 的 内 容 及 技术 问题 ， 提 出 了 质量 控制 的 详细 
规程 及 操作 规范 : 确认 质 量 控制 的 目标 ， 检 
查 WAS (Web archiving service, Archive-It 的 
前 身 ) 质量 控制 工具 的 记录 报告 ; @ 确 认 存 档 
过 程 成 功 居 动 、 采 集 过 程 完成 ; @ 核 实 采 集 设 
置 的 正确 性 、 元 数据 的 准确 性 ; 由 判断 采集 过 
程 是 否 有 特别 重要 的 内 容 丢 失 (特别 重要 的 内 
容 指 对 理解 网 站 主要 内 容 或 关键 功能 不 可 或 缺 
的 内 容 ， 没 有 必要 特别 在 意 个 别 图 像 、 音 频 、 视 
频 及 文本 的 缺失 ， 除 非 这 些 内 容 对 网 站 的 研究 
价值 非常 重要 ) ; (通过 改变 采集 设置 、 联 系 
网 站 所 有 人 或 对 网 站 进行 重新 采集 来 解决 一 些 
突出 的 质量 问题 ; @ 详 细 记 录 整 个 质量 控制 的 
处 理 过 程 。 

2.1.4 美国 国会 图 书馆 

上 述 几 个 网 络 资源 存档 机 构 主要 采用 人 工 
质量 检查 手段 ， 辅 助 以 采集 软件 的 质量 控制 功 
能 或 定制 开发 的 简易 质量 控制 工具 ， 美 国 国会 
图 书馆 与 互联 网 档案 馆 合 作 ， 开 展 了 半自动 化 
质量 保证 的 尝试 丫 ， 尽 管 在 质量 保证 过 程 中 也 
需要 大 量 人 工 操作 ， 但 在 某 些 环节 已 经 全 部 实 
现 自动 化 。 美 国 国会 图 书馆 基于 采集 频率 的 网 
络 资源 存档 采集 流程 如 下 : 

(1) 预 采集 。 预 采集 只 采集 种 子 的 主页 , A 
的 是 检测 种 子 列表 或 SURT 格式 ( 种子 列 表 附 
属 文件 ) 是 否 有 问题 。 若 发 现 问 题 会 实时 对 种 子 
列表 进行 调整 。 

(2) 采集 。 按 照 既定 的 采集 频率 开展 采集 
工作 ， 期 间 检测 到 的 任何 问题 会 在 24 小 时 内 报 
告 给 网 络 资源 存档 团队 。 采 和 集结 束 后 为 采集 数 
据 生 成 CDX 文件 (所 采集 URL 的 索引 文件 ) 和 
WAT 文件 (所 有 WARC 文件 的 元 数据 文件 ) 。 

(3) 自动 化 质量 保证 工作 。 首 先进 行 
浏览 器 分 析 模 拟 ， 该 过 程 使 用 浏览 器 模拟 器 
PhantomJS 以 及 回放 软件 Wayback 对 较为 重要 
的 种 子 进行 回放 ， 对 网 站 页 面 进 行 快照 并 记录 


响应 代码 ， 生 成 每 个 页 面 的 报告 ， 抽 取 报 告 中 
丢失 的 、 需 要 重新 采集 的 文件 列表 ， 添 加 到 采 
集 软件 中 进行 补充 采集 。 同 时 使 用 Pig 脚本 对 
WAT 索引 文件 进行 链接 分 析 ， 根 据 链 接 类 型 
对 外 链 进行 分 类 ， 查 看 所 有 外 链 对 象 尤 其 是 内 
Bex (如 CSS 和 JS 文件 ) 是 否 被 采集 ， 使 
用 Hadoop 工具 对 比 CDX 文件 中 所 采集 资源 与 
外 链 对 象 的 差异 ， 从 而 得 到 未 采集 到 的 对 象 资 
源 ， 加 入 补充 采集 的 候 采 名 单 。 

(4) 补充 采集 。 识 别 质量 问题 是 回放 的 问 
题 还 是 采集 的 问题 ， 并 采集 需要 补充 的 内 容 。 

(5) 人 工 质量 保证 过 程 。 数 据 管 理 员 浏览 
存档 内 容 ， 以 代理 模式 进行 观察 ， 检 查 日 志 报 
告 ， 查 看 所 需要 的 内 容 是 否 全 部 采集 。 

采集 团队 发 现 钻 ， 自 动 化 质量 保证 过 程 大 
大 提高 了 采集 质量 ， 但 是 回放 质量 并 没有 明显 
提高 。 
2.2 国内 网 络 资源 存档 机 构 
2.2.1 北京 大 学 

北京 大 学 网 络 与 分 布 式 系统 研究 所 早 在 
2001 年 就 搭建 了 一 个 大 规模 的 Web 存档 系 
统一 一 Web Infomall", ZRARMA FWA 
互联 网 网 页 进行 存档 、 组 织 并 提供 服务 。 截 
至 2013 年 9 月 ， 该 系统 保存 网 页 85 亿 ， 数 据 
量 达 到 73TB。 相 上 比 其 他 网 络 存 档 项 目 ，Web 
Infomall 的 采集 策略 比较 简单 ， 只 采集 网 页 中 的 
静态 信息 进行 存储 ， 网 页 存储 采用 自行 开发 的 
天 网 存储 格式 , 采取 增 量 方式 对 网 页 进行 存档 。 
该 项 目 所 采集 的 网 页 信息 ， 一 方面 通过 通用 公 
共 许 可 免费 分 发 给 需要 使 用 的 研究 机 构 ， 另 一 
方面 作为 数据 挖掘 研究 与 应 用 的 语料库 ， 为 4 
个 衍生 数据 服务 系统 提供 数据 源 。 在 满足 项 目 
既定 需求 与 目标 的 前 提 下 ， 仪 采集 静态 信息 的 
存档 策略 大 大 降低 了 采集 的 难度 和 失败 几率 , 加 
之 结构 化 天 网 存储 格式 具备 一 定 的 容错 性 ， 使 
得 采集 数据 的 质量 能 够 得 到 一 定 的 保障 。 
2.2.2 国家 图 书馆 

作为 IPC 唯一 的 中 国 成 员 ， 国 家 图 书馆 从 
2003 年 开始 开展 网 络 信息 资源 采集 与 保存 实验 
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研究 ， 并 于 2009 年 成 立 了 国家 图 书馆 互联 网 信 
息 资源 保存 保护 中 心 ， 通 过 十 几 年 的 摸索 与 实 
践 ,目前 已 经 形成 规模 化 采集 ,截至 2016 年 底 , 网 
络 导航 和 网 络 资源 采集 总 量 达 到 114.73TB™。 
国家 图 书馆 的 网 络 存档 有 两 种 类 型 ， 一 种 是 网 
站 采集 ， 主 要 针对 政府 网 站 、 组 织 机 构 等 ， 采 
用 广度 优先 采集 策略 ; 另 一 种 是 定 题 采集 ， 主 
要 针对 重大 事件 ， 如 “党 的 十 九 大 ”等 ， 采 用 
深度 优先 采集 策略 。 不 论 是 全 域 采 集 还 是 专题 
采集 ， 都 专 记 制定 了 详细 的 资源 采 选 原则 及 标 
准 以 及 种 子 重 要 性 排序 原则 。 在 数据 检查 方面 , 充 
分 利用 工具 软件 对 采集 页 面 进行 回放 检查 ， 建 立 
相应 的 检查 机 制 ， 制 定数 据 检 查 工 作 流 程 及 操作 
规范 ， 对 检查 方式 和 抽样 率 等 进行 规定 。 
2.3 质量 保证 实践 对 比分 析 

德 雷 萨 尔 大 学 的 质量 控制 工作 发 生 在 抓 取 
工作 之 后 ， 手 段 是 采集 日 志 及 采集 软件 质量 报 
告 分 析 ， 方 式 为 人 工 手动 检查 。 法 国 国家 图 书 
馆 对 广 域 采集 和 专题 采集 采用 不 同 的 质量 保证 
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策略 ， 广 域 采集 采取 日 志 分 析 、 抽 样 检查 和 软 
硬件 运行 状态 检查 ， 专 题 采集 使 用 定制 开发 工 
县 进行 半自动 化 质量 控制 。 本 特 利 历史 图 书馆 
从 策略 层面 制定 了 详尽 的 质量 保证 工作 流程 规 
范 ， 尽 可 能 减少 因 个 人 因素 导致 的 质量 问题 。 
美国 国会 图 书馆 将 质量 保证 工作 扩展 到 采集 工 
作 的 各 个 环节 ， 加 入 预 采集 环节 ， 对 抓 取 过 程 
进行 监控 ， 使 用 软件 回放 并 自动 记录 质量 问 
题 ， 不 仅 使 采集 工作 流程 得 到 优化 ， 整 个 质量 
控制 过 程 也 实现 了 相当 高 程度 的 自动 化 。 北 京 
大 学 主要 考虑 网 络 资源 时 效 性 的 特点 ， 希 望 尽 
快 将 网 络 资源 采集 到 本 地 进行 保存 ， 对 数据 质 
量 要 求 并 不 高 ， 仅 对 采集 结果 进行 格式 检查 。 
国家 图 书馆 目前 着 眼 于 发 动 国内 有 能 力 的 公共 
图 书馆 参与 网 络 资源 的 联合 建设 工作 ， 因 此 制 
定 了 尽 可 能 详细 的 采集 策略 以 及 严格 的 质量 保 
证 工作 规范 ， 质 量 检 查 仍 以 人 工分 析 日 志 以 及 
回放 检查 为 主 , 以 确保 采集 数据 质量 的 均一 性 。 
如 表 1 PAM: 


表 1 质量 保证 实践 对 比 


机 构 名 称 流程 、 规 范 保障 环节 检查 手段 自动 化 程度 。 时 效 保障 
德 雷 萨 尔 大 学 一 采集 后 日 志 分 析 、 质 量 报告 分 析 AL 一 般 
法 国 国家 图 书馆 一 采集 前 、 后 日 志 分 析 、 抽 样 检查 半自动 化 一 般 
本 特 利 历史 图 书馆 JEHA 采集 后 质量 报告 分 析 人 工 一 般 
美国 国会 图 书馆 非常 详尽 采集 前 、 中 、 后 。 自动 回放 、 日 志 分 析 高 自动 化 一 般 
北京 大 学 一 采集 后 格式 检查 人 工 高 
国家 图 书馆 详尽 采集 后 日 志 监 控 、 回 放 检查 人 工 一 般 


注 : 表 中 ”一 ”表示 本 文 作者 所 掌握 的 材料 未 提 及 ， 不 代表 该 机 构 未 采取 相关 措施 


综 上 可 以 看 出 ， 由 于 在 采集 需求 、 成 本 预 
算 、 时 效 性 等 方面 要 求 各 异 ， 每 个 存档 机 构 在 
质量 保证 工作 中 使 用 的 方法 手段 以 及 投入 的 时 
间 精 力也 各 不 相同 ， 各 机 构 都 根据 各 自 项 目 特 
点 选择 了 适用 于 本 项 目的 质量 保证 措施 和 手段 。 
显而易见 的 是 ， 质 量 保证 措施 和 手段 越 复杂 精 
细 ， 所 得 到 的 数据 质量 越 高 。 


Q 网 络 资源 存档 数据 质量 保证 的 策 
略 框架 体系 


在 不 考虑 项 目 具 体 采集 需求 及 项 目 成 本 的 
前 提 下 ， 为 追求 尽 可 能 高 的 存档 数据 质量 ， 本 
文 提出 了 网 络 资源 存档 数据 质量 保证 的 策略 理 
论 框架 〈 见 图 1) ， 该 框架 以 数据 为 中 心 ， 制 定 
一 系列 的 业务 标准 及 工作 规范 ， 利 用 现 有 软件 
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工具 对 采集 过 程 开 展 全 流程 的 数据 质量 检查 工 
作 ， 同 时 以 团队 建设 、 环 境 维护 及 授权 获取 网 


Feds 


- 


业务 标准 和 工作 规范 
预 采集 工作 规范 


- 
aw EN E 
4479. 

D ~~、 


站 备份 作为 补充 手段 ， 确 保 获 取 高 质量 的 存档 
数据 。 


软件 回放 检查 工作 规范 


选 、 排 序 网 站 分 析 规范 日 志 检 查 工作 规范 数据 检查 规范 


3.1 制定 严格 的 采集 业务 标准 和 工作 规范 

从 上 文 调研 情况 可 知 ， 网 络 存 档 质 量 保证 
工作 以 人 工 操 作为 主 ， 而 质量 控制 专家 背景 知 
识 、 技 术 水 平 及 工作 熟练 程度 各 不 相同 ， 为 避 
免 人 为 因素 导致 的 数据 质量 问题 ， 应 当 为 网 络 
存档 工作 制定 统一 的 业务 标准 和 严格 的 工作 规 
范 。 推 荐 制定 的 标准 规范 包括 : 

(1) 数据 质量 标准 。 前 文 提 到 的 高 质量 
网 络 存档 数据 概念 ， 只 是 一 个 理想 化 的 定性 描 
述 ， 存 档 机 构 应 当 在 完整 保存 知识 性 内 容 、 完 
整 保存 视觉 内 容 和 浏览 体验 、 尽 快 地 完成 采集 
任务 这 三 者 之 间 进 行 平衡 ， 根 据 采 集 任务 的 目 
的 和 需求 为 数据 质量 制定 量化 的 便于 操作 的 标 
准 ， 这 是 一 切 质量 保证 工作 的 基础 。 

(2) 数据 格式 标准 及 元 数据 规范 。 常 见 的 
网 络 存档 数据 格式 有 WARC、ARC 和 KW 等 , 其 
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图 1 网 络 资源 存档 数据 质量 保证 策略 框架 


中 WARC 是 国际 标准 兼 国家 标准 ， 是 网 络 存 
档 领 域 首选 的 数据 标准 ，ARC 和 KW 是 行业 标 
准 ， 正 在 逐步 被 WARC 所 取代 。 制 定 存档 网 站 
对 象 元 数据 规范 便于 将 来 对 网 站 对 象 和 存档 数 
据 进 行 管 理 ， 内 容 应 该 包括 网 站 题名 、 主 要 内 
Aime, KEN AB. URL 数量 、 地 理 位 
置 等 ， 其 中 地 理 位 置 和 主要 内 容 标签 可 以 用 于 
筛选 网 站 是 否 符合 采集 要 求 。 

(3) 软件 使 用 标准 。 网 络 存档 工作 需要 
使 用 的 软件 工具 包括 采集 软件 、 分 布 式 存 储 软 
件 、 杀 毒 软件 、 回 放 软 件 等 。 应 制定 相应 的 软 
件 使 用 标准 ， 明 确 各 类 软件 工具 的 选择 范围 、 版 
本 以 及 标准 配置 等 。 例 如 ， 目 前 最 常用 的 采集 
软件 是 Heritrix 和 Wget， 常 用 的 面向 用 户 桌 面 
的 工具 是 WarcCreate 软件 ， 在 业务 工作 中 可 限 
定 只 人 允许 使 用 Heritrix 软件 进行 采集 ， 并 对 所 使 
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用 的 规则 进行 严格 限制 ， 以 确保 生成 数据 的 一 
致 性 。 

(4) 种 子 筛选 、 排 序 标准 。 无 论 是 国 域 采 
集 还 是 专题 采集 ， 可 以 参考 一 些 知名 数据 统计 
排名 进行 种 子 筛选 ， 例 如 Alexa 排名 等 ， 也 可 
以 参考 一 些 现 有 的 、 较 为 权威 的 网 站 列表 等 。 
对 种 子 网 站 的 选择 设 定 一 个 标准 ， 可 以 保证 原 
网 站 的 数据 有 较 好 的 质量 。 种 子 筛选 完成 之 后 
一 般 会 依照 某 些 特征 ， 对 符合 要 求 的 种 子 进行 
优先 级 排序 ， 并 根据 需要 设 定 每 个 种 子 网 站 的 
采集 时 间 、 采 集 频率 、 采 集 范围 等 。 制 定 种 子 
排序 标准 可 以 更 有 针对 性 、 更 有 序 地 开展 网 络 
资源 存档 。 

(5) MERRIE. REKEM ERE 
是 最 常 使 用 的 两 种 采集 方式 。 采 集团 队 应 该 根 
据 自 己 业务 的 需要 ， 提 供 这 两 种 采集 方式 的 把 
虫 默认 配置 ， 然 后 根据 具体 的 种 子 采集 需要 ， 对 
爬虫 配置 进行 尽 可 能 小 的 修改 。 这 样 能 尽量 减 
少 主 观 原因 导致 的 假 虫 参数 配置 错误 ， 从 而 提 
高 采集 的 数据 质量 。 

(6) 各 类 操作 规范 。 网 络 存档 是 一 项 人 
工 干 预 程 度 比较 高 的 工作 ， 鉴 于 人 工 操作 的 随 
意 性 ， 为 每 一 个 程式 化 的 步骤 制订 便于 执行 的 
工作 流程 及 规范 将 大 大 提高 每 一 步 操作 的 规范 
性 ， 降 低 错误 发 生 的 几率 ， 例 如 : 预 采集 工作 
流程 及 规范 、 日 志 检 查 工 作 流 程 及 规范 、 病 毒 
筛 查 工作 流程 及 规范 、 软 件 回放 质量 检查 工作 
流程 及 规范 等 。 
3.2 开展 全 面 的 数据 检查 

开展 直接 的 数据 质量 检查 是 保证 数据 质量 
最 有 效 的 工作 之 一 ， 是 质量 保证 工作 的 核心 ， 应 
贯穿 到 网 络 资源 存档 的 整个 工作 流程 当中 。 根 
据 质量 检查 工作 开展 的 时 间 ， 数 据 检 查 可 以 分 
为 采集 前 检查 、 采 集中 检查 和 采集 后 检查 ， 这 3 
个 阶段 质量 检查 工作 的 目的 和 内 容 均 不 相同 。 
3.2.1 采集 前 检查 

采集 前 对 目标 网 站 的 结构 和 内 容 进行 预 采 
集 和 分 析 是 成 功 采 集 的 重要 前 提 ， 通 过 分 析 可 
以 及 时 调整 采集 策略 ， 从 而 避免 多 域名 、 外 链 
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引用 等 导致 的 质量 问题 ， 也 可 以 帮助 质量 控制 
专家 明确 网 站 内 容 是 否 符合 采集 要 求 、 所 需 内 
容 是 否 符合 网 站 蜂 蛛 协议 等 。 预 采集 和 分 析 的 
目的 是 确定 目标 网 站 的 采集 策略 ， 从 而 提高 采 
集 数 据 质量 。 预 采集 一 般 采 用 通用 采集 策略 和 
配置 进行 采集 ， 采 集 的 内 容 通常 不 会 写 入 本 地 
文件 ， 只 获取 爬虫 采集 的 日 志 ， 从 而 对 日 志 进 
行 分 析 。 

在 日 志 分 析 过 程 中 ， 质 量 控 制 专家 需要 识 
别 不 完整 、 不 准确 或 不 成 功 的 网 络 采 集结 果 ， 判 
定 不 合 标准 的 采集 并 找 出 其 内 在 原因 或 问题 。 
这 一 步骤 可 能 需要 确认 爬行 设置 ， 复 审 拒 行 报 
告 和 日 志 ， 检 查 目 标 网 站 的 内 容 、 布 局 、 特 征 
和 源 代码 ， 记 录 可 能 阻止 准确 可 靠 并 精确 捕捉 
网 站 的 任何 技术 限制 、 爬 虫 协议 的 除外 条 款 或 
其 他 问题 。 通 过 预 分 析 ， 需 要 确定 本 次 采集 的 
深度 、 广 度 和 采集 频率 ; 确定 是 否 存在 大 量 脚 
本 生成 的 资源 而 导致 采集 失败 ; 确定 是 否 存 在 
爬虫 陷阱 ; 确定 网 站 中 所 需要 采集 的 内 容 都 分 
布 在 哪些 服务 器 ; 确定 采集 规则 应 如 何 设 定 ; 确 
定 种 子 列表 是 否 完备 以 及 是 否 出 现 错误 等 。 明 
确 以 上 内 容 即 明 确 了 采集 策略 ， 可 以 开始 进行 
正式 的 采集 。 
3.2.2 采集 中 检查 

采集 中 检查 的 主要 目的 是 确保 爬虫 正常 运 
行 ， 顺 利 完 成 采集 任务 。 采 集中 的 检查 任务 包 
f& : @ 实 时 监控 爬虫 运行 是 否 正常 ， 是 否 存 在 
内 存 浴 出 等 技术 问题 ? 是 否 陷 入 爬虫 陷阱 ? 网 
络 情况 是 否 正常 ? OO 定期 检查 采集 日 志 ， 判 断 
需要 采集 的 内 容 是 否 正 确 采 集 ? 采集 的 资源 是 
否 所 需 ? 是 否 出现 预 采集 没有 发 现 的 问题 ?把 
虫 设置 是 否 合理 ? 是 否 需要 修改 ? 通过 这 些 检 
查 ， 及 时 解决 息 行 过 程 中 发 生 的 问题 ， 可 以 保 
证 爬虫 顺利 完成 采集 任务 。 
3.2.3 采集 后 检查 

采集 后 的 质量 检查 工作 主要 内 容 是 : 对 数 
据 进 行 校 验 ， 判 断 是 否 满足 既定 格式 、 查 杀 病 
毒 ; 检查 存档 文件 是 否 能 展现 网 站 原貌 ， 采 用 
的 方法 有 日 志 分 析 和 软件 回放 。 
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(1) 数据 校 验 。 数 据 检查 的 第 一 步 是 查看 数 
据 是 否 符合 既定 的 数据 标准 ， 对 数据 文件 进行 置 
标 核验， 确保 文件 的 完整 性 。 通 常 网 络 资源 存 
档 机 构 都 会 采用 国际 标准 WARC 格式 来 作为 既 
定数 据 标准 ， 此 步骤 可 以 通过 JHove2、WARC 
Tools 等 工具 来 完成 。 

(2) 查 杀 病毒 。 碍 杀 病 毒 不 是 数据 检查 的 必 
备 步 又， 笔者 认为 ， 网 页 存在 病毒 是 当代 网 络 
的 一 种 特征 ， 其 原因 可 能 是 网 站 被 黑客 攻击 ,也 
有 可 能 是 网 站 管理 员 的 误 操 作 ， 也 有 可 能 是 杀 
毒 软件 的 误 报 。 从 网 络 资源 存档 的 业务 工作 角 
度 讲 ， 数 据 质量 有 两 个 标准 : 一 是 满足 预定 的 
目标 ， 二 是 反映 客观 的 实际 。 如 果 存 档 的 目的 
是 为 了 服务 ， 那 么 采集 到 的 资源 一 定 不 能 有 病 
毒 ; 如 果 存 档 是 为 了 保存 ， 那 么 对 于 病毒 的 存 
在 应 该 抱 容 忍 的 态度 。 

病毒 的 查 杀 可 以 使 用 常用 的 杀毒 软件 (D 
卡巴 斯 基 、Avira 等 ) 来 进行 ， 操 作 上 比较 简单 。 
病毒 查 杀 的 关键 在 于 对 病毒 的 处 理 ， 有 的 杀毒 
软件 会 把 病毒 文件 从 采集 生成 的 WARC 文件 中 
移 除 ; 有 的 杀毒 软件 是 直接 把 整个 WARC 文件 
删除 ， 这 样 必然 导致 采集 数据 的 丢失 ; 还 有 的 
杀毒 软件 对 脚本 比较 敏感 ， 尽 管 这些 脚 本 是 无 
害 的 ,会 导致 误杀 。 因 此 ， 在 进行 杀毒 之 前 ， 必 
须 对 所 使 用 的 杀毒 软件 有 所 了 解 ， 并 选择 正确 
的 杀毒 软件 进行 。 

3) 日 志 分 析 。 经 验 丰富 的 质量 控制 专家 可 
以 在 日 志 分 析 过 程 中 发 现 自动 跳 转 、 引 用 外 链 
等 技术 问题 ， 同 时 也 能 根据 采集 到 的 文件 数量 
和 采集 任务 持续 的 时 间 发 现 相 关 问 题 。 在 采集 
日 志 中 需要 特别 注意 服务 器 响应 错误 及 超时 错 
误 ， 若 对 方 服务 器 或 网 络 出 现 了 问题 ， 导 致 无 
法 访问 ， 网 络 爬 虫 通常 不 会 持续 地 尝试 访问 目 
标 资源 ， 而 是 在 多 次 尝试 失败 之 后 在 日 志 中 记 
录 , 然后 跳 过 该 资源 , 这 样 便 会 造成 信息 漏 采 ， 
此 在 检查 日 志 时 需要 重点 监控 这 类 信息 ， 对 漏 
采 的 资源 进行 分 析 ， 必 要 时 加 入 补 采 清 单 。 

(4) 软件 回放 。 使 用 专门 的 回放 软件 对 存 
档 内 容 进 行 回放 ， 再 通过 人 工 点 击 和 查看 的 方 


式 , 来 确认 网 站 内 容 是 否 完整 、 链 接 是 否 有 效 、 交 
互 性 是 否 完备 。 由 于 软件 回放 需要 全 部 由 人 工 来 
操作 ， 对 于 海量 采集 这 种 方式 变 得 很 难 执行 ， 只 
能 进行 抽样 检查 ， 作 为 日 志 分 析 的 补充 手段 。 
3.3 开展 半自动 化 质量 保证 工作 

为 提高 网 络 存档 质量 保证 工作 的 自动 化 程 
度 ， 减 少 人 工 参 与 度 与 工作 量 ， 越 来 越 多 的 网 
络 资源 存档 软件 工具 开始 集成 质量 保证 的 功能 
模块 , 也 有 不 少 专门 的 质量 保证 辅助 工具 出 现 。 
若 能 充分 利用 这 些 功能 模块 和 工具 ， 质 量 控制 
专家 则 能 事半功倍 地 完成 质量 保证 工作 。 

33.1 爬虫 软件 

Heritrix 是 网 络 资源 存档 中 使 用 最 广泛 的 爬 
虫 软件 中， 它 为 采集 前 、 采 集中 到 采集 后 的 质 
量 控制 都 提供 了 和 良好 的 支持 。Heritrix 拥有 非常 
强大 的 任务 配置 功能 ， 它 提供 了 数 十 条 不 同 颗 
粒度 的 采集 规则 ， 包 括 采 集 范围 、 采 集 协 议 、 抽 
取 内 容 类 型 、 文 件 输出 格式 等 。 同 时 为 符合 颗 
粒度 规则 的 URL 提供 正则 表达 式 过 滤 、 目 录 深 
度 过 滤 、 跳 转 次 数 过 滤 、SURT 过 滤 等 进一步 
的 过 滤 选 择 。 通 过 这 些 规 则 的 灵活 组 合 ， 任 务 
管理 员 可 以 制定 与 采集 目标 高 度 吻 合 的 采集 策 
略 ， 从 而 为 各 种 复杂 程度 不 同 的 采集 任务 提供 
高 质量 的 采集 结果 。 

Heritrix 提供 监控 采集 任务 的 控制 台 ， 可 实 
时 查看 当前 任务 进度 、 采 集 速 度 、 运 行 时 间 、 采 
集 线 程 、 队 列 情况 等 信息 。 若 任务 运行 过 程 当 
中 遇 到 访问 超时 、 任 务 无 法 局 动 、 网 页 解析 错 
误 等 问题 ， 控 制 台 还 会 发 出 警报 提醒 ， 以 便 任 
务 管理 员 及 时 查看 并 排除 故障 。 

此 外 Heritrix 还 为 采集 任务 提供 详细 的 报 
告 ， 里 面 记录 本 次 任务 所 采集 的 资源 数量 、 类 
型 、 容 量 、 所 属 类 型 等 信息 。 任 务 管理 员 可 以 
通过 这 些 信息 ， 分 析 每 个 域名 的 采集 情况 ， 并 
判断 采集 失败 的 原因 ， 以 便 下 次 采集 时 根据 失 
败 的 原因 重新 设 定 新 的 采集 规则 ， 以 保证 采集 
内 容 的 完整 性 。 

3.3.2 采集 软件 包 
Web Curator Tools (WCT) 是 一 款 开 源 的 
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网 络 资源 存档 工具 软件 ， 功 能 包括 采集 授权 管 
理 、 采 集 任务 安排 、 质 量 检查 、 采 集 数 据 验证 、 元 
数据 管理 等 。WCT 利 用 Heritrix 作为 采集 礁 虫 , 同 
样 能 提供 采集 前 、 采 集中 到 采集 后 的 全 流程 质 
量 控制 。WCT 在 质量 控制 方面 最 为 突出 的 是 其 
专门 提供 一 个 图 形 化 的 质量 检查 工具 ， 用 户 操 
作 界 面 以 种 子 URL 为 根 ， 将 所 采集 到 的 资源 
URL 以 树 形 结构 的 方式 进行 展示 ， 同 时 显示 每 
^ URL 的 部 分 统计 信息 ， 包 括 URL 总 数量 、 成 
功 采 集 的 数量 、 采 集 失 败 的 数量 、 对 象 容量 大 
小 等 。 质 量 控制 专家 可 以 直接 对 树 形 结构 中 的 
“ 枝叶 ”进行 修剪 ， 删 除 不 需要 的 资源 内 容 ， 也 
可 以 在 结果 中 导入 遗漏 的 URL 或 遗漏 的 单个 文 
件 等 。 修 改 完毕 进行 保存 时 ，WCT 会 自动 对 存 
档 资 源 进行 相应 的 修改 并 更 新 。 

NetArchiveSuite 是 一 套 完 整 的 网 络 资源 
存档 软件 包 ， 由 丹麦 皇家 图 书馆 和 洲际 大 学 图 
书馆 联合 开发 '""， 主 要 用 于 网 络 资源 存档 工 
作 规 划 、 采 集 任务 安排 、 网 络 资源 采集 等 。 
NetArchiveSuite 提供 了 一 个 专门 用 于 回放 的 质 
量 检查 工具 ViewProxy， 功 能 包括 : OBA 
览 器 模拟 器 对 网 络 存 档 资 源 进行 回放 浏览 ; 
GO 收集 采集 过 程 中 丢失 的 URL， 加 入 补充 采集 
队列 ; 直接 对 丢失 的 URL 进行 再 次 采集 。 
3.3.3 辅助 工具 

Monitrix € — T * [*] 7J Heritrix 3 设计 的 前 
端 监控 、 分 析 软 件 ， 主 要 功能 包括 : CD 实时 监控 
Heritrix 3 的 任务 运行 情况 ,生成 可 视 化 的 图 形 , T 
示 各 种 统计 信息 ; 根据 采集 日 志 ， 生 成 采集 
时 间 线 ， 显 示 单 位 时 间 的 统计 信息 ， 包 括 数据 
量 、URL 数量 、 发 现 的 新 主机 数量 、 完 成 采集 
的 主机 数量 ; G) 浏 览 详 细 的 统计 信息 ， 包 括 主 机 
数量 、URL 数量 、 日 志 中 的 警告 数量 ; OFM 
单个 主机 进行 信息 分 析 , 包 括 第 一 次 访问 时 间 、 最 
后 一 次 访问 时 间 、HTTP 相应 代码 饼 图 、 病 毒 检 
查 饼 图 、MIME 资源 类 型 饼 图 和 子 域 的 列表 等 。 
3.3.4 专门 质量 检查 软件 

Jhove204 是 知名 的 开源 格式 验证 软件 ， 在 
长 期 保存 领域 得 到 了 广泛 的 应 用 ， 从 2.1.0 版 
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本 开始 支持 WARC 标准 文档 的 分 析 和 验证 。 
JWAT (Java web archive toolkits) "" 为 用 户 提 
供 了 图 形 化 界面 ， 不 仅 可 以 读 取 和 验证 WARC/ 
ARC 文档 ， 还 提供 了 写 入 功能 ， 方 便 用 户 及 
时 纠 错 。Warc tools"?! 是 由 IIPC 资助 开发 的 
WARC 文档 处 理工 具 ， 提 供 多 个 脚本 来 实现 处 
理 WARC 文档 的 功能 , 如 WARC 文档 的 验证 、 生 
成 自动 摘要 、ARC 文档 转换 为 WARC 文档 等 。 

Wayback machine! 是 互联 网 档案 馆 开发 
的 WARC/ARC 文档 索引 和 回放 软件 ， 它 支持 
对 WARC/ARC 文档 中 的 URL 进行 索引 和 回 
放 ， 并 提供 用 户 检索 界面 。OpenWayback"| 是 
Wayback machine 的 Java 版 本 ， 由 国际 互联 网 
保存 组 织 主导 开 发 ， 实 现 了 Wayback machine 
的 大 部 分 功能 ， 是 目前 主流 的 回放 软件 。 
3.4 其 他 策略 
3.4.1 加 强 网 络 资源 存档 团队 建设 

网 络 资源 存档 数据 质量 保证 工作 目前 主要 
通过 人 工 完 成 ， 质 量 控制 专家 的 专业 能 力 直 接 
影响 质量 保证 工作 的 效果 。 作 为 一 名 合格 的 质 
量 控制 专家 ， 应 熟练 掌握 互联 网 相关 知识 ， 包 
括 互联 网 数据 传输 技术 、 网 站 开发 技术 、 网 络 
硬件 相关 知识 ， 除 此 之 外 还 需 具 备 较 强 的 数学 
能 力 、 逻 辑 推理 能 力 和 编程 能 力 等 。 面 对 互联 
网 技术 突飞猛进 的 发 展 速 度 ， 应 当 加 强 对 网 络 
资源 存档 团队 的 培训 ， 提 升 其 专业 能 力 ， 使 其 
成 为 数据 质量 保证 工作 的 人 才 保 障 。 
3.4.2 做 好 运行 环境 及 网 络 环境 维护 

网 络 存档 工作 的 成 败 不 仅 取 决 于 各 种 网 络 
采集 软件 及 工具 的 功能 ， 也 依赖 于 软件 工具 运 
行 的 硬件 环境 及 网 络 环境 ， 维 护 良 好 的 软 硬 件 
运行 环境 及 网 络 环境 是 保证 高 质量 网 络 存档 工 
作 的 前 提 。 网 络 采集 团队 应 制定 严密 的 服务 器 
及 硬件 管理 规定 ， 运 用 各 种 监控 网 络 硬 件 的 设 
备 及 软件 ， 定 期 对 服务 器 软 硬 件 运 行 环境 进行 
邻 查 ， 为 网 络 存档 工作 提供 良好 的 软 硬 件 运 行 
环境 及 网 络 环境 。 
3.4.3. 直接 获取 网 站 资源 备份 

网 络 爬 虫 是 一 种 有 缺陷 的 网 络 资源 存档 技 
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术 ， 它 模拟 人 类 浏览 网 页 时 的 情形 ， 但 又 因 缺 
乏 智 能 性 不 能 完整 模拟 ， 因 此 这 种 方法 永远 不 
能 完美 呈现 原始 网 站 面貌 。 保 存 机 构 若 与 网 络 
资源 所 有 者 进行 合作 ， 在 解决 知识 产权 等 相关 
问题 的 前 提 下 ， 直 接 从 提供 商 处 获取 网 站 及 资 
源 的 数据 备份 ， 包 括 后 台数 据 库 、 瞬 入 式 资 源 
以 及 动态 脚本 等 ， 大 概 就 是 网 络 资源 存档 的 ′ 终 
极 ” 解 决 方案 了 。 虽 然 这 种 方式 目前 来 看 操作 
性 不 强 ， 但 是 一 条 值得 探索 的 道路 ， 可 以 在 小 
范围 内 进行 党 试 。 
3.5 小 结 与 建议 

本 文通 过 调研 分 析 国 内 外 网 络 存档 机 构 
在 数据 质量 保证 方面 的 措施 和 方法 ， 提 出 了 通 
用 的 具有 普 适 性 的 存档 数据 质量 保证 策略 理论 
框架 。 本 框架 的 提出 不 基于 任何 具体 的 采集 项 
目 需求 ， 也 不 考虑 质量 保证 措施 所 耗费 的 人 力 
成 本 和 物力 成 本 ， 是 一 个 通用 的 可 供 存 档 机 构 
参考 选择 的 理论 框架 。 在 外 观 完整 性 、 交 互 完 
备 性 和 数据 一 致 性 三 大 质量 评价 指标 中 ， 本 框 
架 更 注重 外 观 完整 性 和 交互 完备 性 的 保障 ， 对 
数据 一 致 性 也 就 是 采集 时 效 性 考虑 较 少 。D. 
Denev'“ 等 人 提出 的 SHARC 框架 ， 采 用 一 系列 
注重 质量 的 采集 时 间 策 略 ， 增 加 对 频繁 变化 网 
页 的 采集 频率 来 保证 数据 的 一 致 性 。 存 档 机 构 
可 根据 各 项 目 采集 目标 及 采集 需求 ， 充 分 考虑 
项 目 成 本 预算 ， 对 框架 中 的 质量 保证 具体 方法 
和 手段 进行 有 针对 性 的 选择 。 
Qi 

目前 的 网 络 存档 工作 面临 的 两 大 难题 为 知 
识 产 权 问 题 和 疏 虫 技术 问题 。 我 国 网 络 资源 存 
档 呈 缴 立 法 工作 尚 处 于 空缺 状态 ， 应 当 从 网 络 
文化 保护 的 角度 出 发 ， 推 动 网 络 资源 呈 缴 的 相 
关 立 法 工作 ， 这 样 保存 机 构 就 可 以 突破 颗 蛛 协 
议 等 技术 性 限制 ， 尽 可 能 完整 地 保存 网 站 内 容 。 
在 法 律 问题 解决 之 前 ， 利 用 网 络 爬 虫 进行 采集 
仍然 是 主要 的 手段 之 一 ， 在 未 来 的 工作 中 ， 网 
络 存 档 机 构 应 当 努 力 增强 网 络 扑 虫 的 采集 能 
力 ， 解 决 富 应 用 封装 网 络 资源 的 采集 问题 ， 从 


而 提高 采集 的 质量 。 
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Abstract: [Purpose/significance] Quality assurance is one of the most important procedures in web 


archiving, it runs throughout the whole web archiving work and affects the success odds of web archiving 


work. [Method/process] In this article, we made an analysis and comparative study for the quality assurance 


strategies of domestic and foreign web archiving organizations, and proposed a strategic theoretical 


framework for data quality assurance. [Result/conclusion] The framework in this article is a data-centered 


design, it includes a series of criteria and operating specifications, carries out data quality inspection 


throughout the collecting procedure by using semi-automatic auxiliary tools. Meanwhile, to ensure access 


to high quality archive data, the framework also takes team building, running environment maintenance and 


authorized backup to the websites as supplementary means. 
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